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Phương pháp nghiên cứu là cột sống của toàn bộ nghiên cứu, là con đường dẫn tới lời giải cho câu hỏi mà nhà nghiên 
cứu đặt ra. Vậy nên, đối với các nhà nghiên cứu trẻ, tìm hiểu và củng cố kiến thức về các phương pháp nghiên cứu là 
một phần trọng yếu để trưởng thành trong nghề. 

Tuy nhiên, thế giới khoa học đã phát triển hàng trăm phương pháp nghiên cứu phức tạp, từ định lượng đến định tính, rồi 
vô vàn các mô hình. Tìm hiểu chúng giống như leo một rặng ngọn núi cao, vừa qua đỉnh này đã tới đỉnh khác, rất dễ nản 
lòng. Chính vì vậy, có được những cuốn sách có thể hỗ trợ thúc đẩy quá trình học hỏi là vô cùng quý. 


Là một nghiên cứu viên trong Trung tâm Nghiên cứu Xã hội Liên ngành, Trường Đại học Phenikaa, tôi có cơ hội được 
hướng dẫn và làm quen với phương pháp thống kê Bayesian. Mặc dù được hướng dẫn và làm việc trực tiếp, quá trình 
khám phá Bayesian cũng không hề dễ dàng với nhiều trở ngại về ngôn ngữ, lập trình, hay toán học. 


Chính vì vậy, cuốn sách “Bản hoà tấu dữ liệu xã hội” được viết bởi các tác giả Vương Quân Hoàng, Lã Việt Phương, Trần 
Trung, Nguyễn Minh Hoàng, và Hồ Mạnh Toàn [1] - những người thầy, người anh lớn trong Trung tâm ISR - được xuất bản 
là một cơ hội quý để tôi có thêm động lực “ượt chướng ngại vật”. 


Hiện nay, thống kê Bayesian kém phổ biến hơn nhiều so 
với thống kê truyền thống, hay còn gọi là thống kê 
frequentist. Đối với lĩnh vực khoa học xã hội và nhân văn 
(KHXH&NV), thống kê Bayesian thậm chí còn gân như 
không tồn tại. 


Vì vậy, trong những chương đầu tiên, các tác giả cũng giải 
thích rõ lựa chọn giới thiệu thống kê Bayesian thay vì › = Ty 
thống kê truyền thống. Nhóm tác giả đánh giá Bayesian B Ầ N R 0A II 
có thể giải quyết một vấn đề lớn đang tồn tại trong khoa 
học xã hội: tái xác lập kết quả. Cuốn sách là một cuốn sổ 
tay hướng dẫn hữu dụng, nhỏ gọn cho những người mới 
tiếp cận và thực hành thống kê Bayesian. 


Trong chương thứ 2, các tác giả bàn luận về vấn đề tái xác 
lập kết quả, mà một trong các nguyên nhân chính là các 
thói quen táy máy' với thống kê frequentist như “đếm sao” 
(Stargazing), p-hacking và HARKing [2-4]. Các thói quen 
này đều xoay quanh con số quyết định ý nghĩa thống kê, 
p-value. Về mặt thống kê, con số này nói lên mức độ tự tin 
với kết quả kiểm định giả thuyết. Tuy nhiên, nó vô tình 
khuyến khích các hành vi như làm giả số liệu, chế biến dữ 
liệu... để có thể có giá trị p-value mong muốn bằng mọi 
giá. 

Sự phát triển của khoa học mở càng làm bộc lộ rõ hơn 
các điểm yếu của thống kê truyền thống [1]. Đầu tiên, dữ 
liệu mở cho phép các nhà nghiên cứu khác thực hiện lại 
nghiên cứu và xác nhận lại kết quả nghiên cứu, phát hiện 
và ngăn ngừa hậu quả của các thói quen táy máy' đã 
được bàn tới [3-5]. Thứ hai, các nghiên cứu chào đón các Hình 1. Bản hoà tấu dữ liệu xã hội 
cuộc phản biện và đối thoại mở, tăng cơ hội kiểm soát 

chất lượng nghiên cứu |6, 7]. 
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Sự bùng nổ của các bộ dữ liệu mở, ngược lại, lại làm nổi bật tính hữu ích của phương pháp Bayesian, vì tư duy cốt lõi của 
phương pháp Bayesian là dựa vào việc cập nhật các niềm tin trước đó với những dữ liệu, bằng chứng mới. Khi KHXH là 
ngành mà nhiều tư duy, hành động đều không tuyệt đối dẫn đến một kết quả nhất định và không có sự thống nhất về lý 
thuyết hay triết lý thì phương pháp Bayesian là phương án phù hợp, cho phép các nhà nghiên cứu tinh chỉnh suy luận và 
minh bạch về sai lệch ước tính [8]. 


Dù có những điểm mạnh, phương pháp Bayesian không phổ biến vì nhiều người cảm thấy nặng nề mỗi khi tiếp cận với 
một phương pháp mới, đặc biệt với phương pháp đòi hỏi tư duy, hiểu biết toán học và kỹ năng lập trình. Sự thiếu thốn về 
tài liệu cũng ngăn trở người học đến với phương pháp mới. Các cuốn tài liệu về phương pháp Bayesian tiếng nước ngoài 
như cuốn của Richard McElreath [9] lại nặng nề (về cả số lượng trang, kiến thức toán và có vốn từ tiếng Anh về thống kê). 


Như đã nói, đây cũng là lý do khiến tôi chần chừ tìm hiểu sâu và luyện tập thực hành phương pháp Bayesian, dù thường 
xuyên va chạm. Thời điểm cuốn Bản hoà tấu dữ liệu xã hội được xuất bản lại vừa phù hợp, vì chưa có một cuốn sách 
tham khảo tiếng Việt hướng dẫn về thống kê Bayesian. Đây là bài toán thứ hai mà cuốn sách này muốn giải quyết. 


Sau khi giới thiệu các kỹ năng cơ bản với môi trường lập trình R tại Chương 3, các tác giả đã để người đọc tiếp cận với lối 
tư duy Bayesian bằng cách so sánh về tư duy và cách tiếp cận trong bài toán đồng xu giữa thống kê truyền thống và 
Bayesian tại Chương 4. Đây là nơi để người đọc nắm bắt được các khái niệm cơ bản của phương pháp Bayesian và hiểu 
rõ sự phụ thuộc vào cỡ mẫu của frequentist. Chương 6 giải thích kĩ càng hơn về phương pháp mô phỏng Markov chain 
Monte Carlo (MCMC), để hiểu về cách tính tương quan và cỡ mẫu hiệu quả. Tác giả cũng mô phỏng lại từng bước quá 
trình đánh giá tính hiệu quả của chuỗi MCMC để người học có thể theo dõi và tự làm lại. 
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Các chương sau sẽ đi sâu hơn về các bài toán 
thống kê. Hiểu rằng lập trình có thể là bước 
cản lớn với nhiều người học, các tác giả giới 
thiệu về gói lập trình bayesvf trên môi trường 
R, được phát triển bởi chính các tác giả, để 
giúp người dùng có thể dễ dàng thực hiện 
kiểm tra các giả thuyết với thống kê Bayesian 
[10, 11]. Là một cuốn sách hướng dẫn về tư 
duy và lập trình, mỗi chương đều hướng dẫn 
lập trình rõ ràng và kèm lời giải thích tỉ mỉ để 
người học theo dõi và lặp lại các hướng dẫn. 
Ngoài ra, các chương đều có các bài toán để 
người học luyện tập và thành thục kỹ năng. 
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Các chương sách trình bày theo dòng tư duy 
tiếp cận và xử lý bài toán nên dễ theo dõi. Tốt 
hơn nữa là người học được thực hành vẽ các 
đồ thị trên R. Khi thực hành, tôi đoán mọi 
người sẽ đoán ra dụng ý của tác giả khi đặt cái tên khá |, 
lãng mạn “Bản hoà tấu dữ liệu xã hội” cho một cuốn sách 
thống kê vốn đi đôi với hình ảnh nhàm chán, khô khan. 
Các biểu đồ dễ khiến người ta liên tưởng tới các bản nhạc. 


Tiếp tục về nội dung, Chương 5 hướng dẫn tiếp cận bài 
toán xác suất thống kê so sánh hai nhóm mẫu bằng cả 
hai phương pháp frequentist và Bayesian. Người học cũng 
sẽ được trải nghiệm xây dựng và giải quyết các bài toán 
về các mô hình hồi quy tuyến tính (đơn giản và đa biến) 
trong Chương 8, mô hình hồi quy đa tầng (Chương 9), mô 
hình phức hợp (Chương 11). Chương 7 và Chương 10 sẽ 
giúp người học có thể tận dụng tối đa ưu thế đồ hoạ của 
gói lập trình bayesvl để xây dựng mô hình và trình bày các 
kết quả bằng đồ hoạ. 


Lặp lại từng bước được trình bày trong sách, sau đó luyện 
tập lại cùng với một số bài toán ở cuối chương, tôi dần 
quen hơn với sự phức tạp của thống kê và thống kê 
Bayesian. Nhờ cách trình bày và tiếp cận rõ ràng, mạch 
lạc và sự tiện dụng của phần mềm bayesvl kèm theo, quá 
trình tự học cũng tương đối dễ dàng. Dày đặc hình ảnh, 
bảng biểu và các đoạn mã máy tính, cuốn sách buộc tôi 
phải mở máy tính lên và thực hành. Đổi lại, tôi tự tin hơn vì đã có thêm được kiến thức và kĩ năng liên quan đến phương 
pháp Bayesian. 
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